智能论文笔记

字符不传达意义，但字符序列会。我们提出了一种无监督的分布方法，以便在一系列字符中学习抽象意义的单元。该模型而不是分割序列，而不是分割序列中的“对象”的连续表示，使用最近提出的架构在称为插槽注意中的图像中的对象发现。我们在不同语言中培训我们的模型，并用探测分类评估所获得的表示的质量。我们的实验表明，我们的单位在更高的抽象层面捕捉意义的能力。

translated by 谷歌翻译

对象检测一直是实用的。我们世界上有很多事情，以至于认识到它们不仅可以增加我们对周围环境的自动知识，而且对于有兴趣开展新业务的人来说也可以很有利润。这些有吸引力的物体之一是车牌（LP）。除了可以使用车牌检测的安全用途外，它还可以用于创建创意业务。随着基于深度学习模型的对象检测方法的开发，适当且全面的数据集变得双重重要。但是，由于频繁使用车牌数据集的商业使用，不仅在伊朗而且在世界范围内也有限。用于检测车牌的最大伊朗数据集具有1,466张图像。此外，识别车牌角色的最大伊朗数据集具有5,000张图像。我们已经准备了一个完整的数据集，其中包括20,967辆汽车图像，以及对整个车牌及其字符的所有检测注释，这对于各种目的都是有用的。此外，字符识别应用程序的车牌图像总数为27,745张图像。

translated by 谷歌翻译

Self-Contained Entity Discovery from Captioned Videos

Melika Ayoughi , Pascal Mettes , Paul Groth

分类：计算机视觉

2022-08-13

本文在视频中介绍了视觉命名实体发现的任务，而无需特定于任务的监督或特定于任务的外部知识源。在视频帧中为实体（例如面部，场景或对象）分配特定名称是一个长期的挑战。通常，通过用实体标签手动注释面孔作为监督学习目标解决。为了绕过该设置的注释负担，几项作品通过利用外部知识来源（例如电影数据库）来研究了问题。虽然有效，但是当未提供特定于任务的知识源，只能应用于电影和电视连续剧时，此类方法无效。在这项工作中，我们将问题进一步发展，并建议在视频和相应字幕或字幕的视频中发现实体。我们介绍了一种三阶段的方法，在其中（i）从框架符号对创建二分实体图形，（ii）找到视觉实体协议，（iii）通过实体级的原型构建来完善实体分配。为了解决这个新问题，我们根据朋友和大爆炸理论电视连续剧概述了两个新的基准SC-Friends和SC-BBT。基准上的实验证明了我们的方法发现哪个命名实体属于哪个面孔或场景，其精度接近有监督的甲骨文，仅来自视频中存在的多模式信息。此外，我们的定性示例还表明，对未来工作的任何视觉实体的发现的潜在挑战。代码和数据可在GitHub上获得。

translated by 谷歌翻译